'''
Robots 协议也称作爬虫协议、机器人协议，它的全名叫作网络爬虫排除标准（ Robots Exclusion 
Protocol ），用来告诉爬虫和搜索引擎哪些页面可以抓取，哪些不可以抓取。 它通常是一个叫作 robots.txt
的文本文件，一般放在网站的根目录下 。
当搜索爬虫访问一个站点时，它首先会检查这个站点根目录下是否存在 robots.txt 文件，如果存在，
搜索爬虫会根据其中定义的爬取范围来爬取 。 如果没有找到这个文件，搜索爬虫便会访问所有可直接
访问的页面 。
'''

from urllib.robotparser import RobotFileParser

rp = RobotFileParser()
rp.set_url('https://www.douban.com/robots.txt')
rp.read()

url = 'https://www.douban.com'
user_agent = 'Wandoujia Spider'
wsp_info = rp.can_fetch(user_agent, url)

print("Wandoujia Spider 代理用户访问情况：",wsp_info)

user_agent = 'Other Spider'
osp_info = rp.can_fetch(user_agent, url)

print("Other Spider 代理用户访问情况：",osp_info)
